当前位置: 开发笔记 > 编程语言 > 正文

主体|演员表_创建项目并初始化业务数据——基于Spark平台的协同过滤实时电影推荐系统项目系列博客

作者：lylmwt | 来源：互联网 | 2023-08-27 16:12

篇首语：本文由编程笔记#小编为大家整理，主要介绍了创建项目并初始化业务数据——基于Spark平台的协同过滤实时电影推荐系统项目系列博客相关的知识，希望对你有一定的参考价值。

系列文章目录

初识推荐系统——基于Spark平台的协同过滤实时电影推荐系统项目系列博客&＃xff08;一&＃xff09;
利用用户行为数据——基于Spark平台的协同过滤实时电影推荐系统项目系列博客&＃xff08;二&＃xff09;
项目主要效果展示——基于Spark平台的协同过滤实时电影推荐系统项目系列博客&＃xff08;三&＃xff09;
项目体系架构设计——基于Spark平台的协同过滤实时电影推荐系统项目系列博客&＃xff08;四&＃xff09;
基础环境搭建——基于Spark平台的协同过滤实时电影推荐系统项目系列博客&＃xff08;五&＃xff09;
创建项目并初始化业务数据——基于Spark平台的协同过滤实时电影推荐系统项目系列博客&＃xff08;六&＃xff09;
离线推荐服务建设——基于Spark平台的协同过滤实时电影推荐系统项目系列博客&＃xff08;七&＃xff09;
……

项目资源下载

电影推荐系统网站项目源码Github地址&＃xff08;可Fork可Clone&＃xff09;
电影推荐系统网站项目源码Gitee地址&＃xff08;可Fork可Clone&＃xff09;
电影推荐系统网站项目源码压缩包下载&＃xff08;直接使用&＃xff09;
电影推荐系统网站项目源码所需全部工具合集打包下载&＃xff08;spark、kafka、flume、tomcat、azkaban、elasticsearch、zookeeper&＃xff09;
电影推荐系统网站项目源数据&＃xff08;可直接使用&＃xff09;
电影推荐系统网站项目个人原创论文
电影推荐系统网站项目前端代码
电影推荐系统网站项目前端css代码

文章目录

系列文章目录
项目资源下载
前言
一、在 $I D E A$ 中创建 $M a v e n$ 项目
- 1.1 项目框架搭建
- 1.2 声明项目中工具的版本信息
- 1.3 添加项目依赖
二、数据加载准备
- 2.1 $M o v i e s$ 数据集
- 2.2 $R a t i n g s$ 数据集
- 2.3 $T a g$ 数据集
- 2.4 日志管理配置文件
三、数据初始化到 $M o n g o D B$
- 3.1 启动 $M o n g o D B$ 数据库
- 3.2 数据加载程序主体实现
- 3.3 将数据写入 $M o n g o D B$
四、数据初始化到 $E l a s t i c S e a r c h$
- 4.1 启动 $E l a s t i c S e a r c h$ 数据库
- 4.2 将数据写入 $E l a s t i c S e a r c h$
总结

前言

今天给大家带来的博文是关于代码项目的初始化以及整个项目所需数据的初始化&＃xff0c;其中包括&＃xff0c;在 $I D E A$ 中创建 $m a v e n$ 项目、数据加载准备、数据初始化到 $M o n g o D B$ 、数据初始化到 $E l a s t i c S e a r c h$ 等内容&＃xff0c;通过这篇博文我们就可以把整个项目的框架搭建起来了。另外有一点很重要&＃xff0c;关于代码的内容大家要注意可能和我的命名不同&＃xff0c;当然允许不同&＃xff0c;但是要注意修改相关的位置&＃xff0c;相信能做到这里的读者应该都是有一定基础的&＃xff0c;但还是要提醒一下&＃xff0c;需要注意。当然&＃xff0c;读者还是要有Scala和Maven的基础。下面就开始今天的学习吧&＃xff01;

一、在

I D E A

中创建

M a v e n

项目

项目主体用 $S c a l a$ 编写&＃xff0c;采用 $I D E A$ 作为开发环境进行项目编写&＃xff0c;采用 $M a v e n$ 作为项目构建和管理工具
首先打开 $I D E A$ &＃xff0c;创建一个 $M a v e n$ 项目&＃xff0c;命名为MovieRecommendSystem。为了方便后期的联调&＃xff0c;会把业务系统的代码也添加进来&＃xff0c;所以可以以MovieRecommendSystem作为父项目&＃xff0c;并在其下建一个名为recommender的子项目&＃xff0c;然后再在下面搭建多个子项目用于提供不同的推荐服务。

1.1 项目框架搭建

  在MovieRecommendSystem的pom.xml文件中加入元素pom&＃xff0c;然后新建一个maven module。子项目的第一步是初始化业务数据&＃xff0c;所以子项目命名为DataLoader
  父项目只是为了规范化项目结构&＃xff0c;方便依赖管理&＃xff0c;本身是不需要代码实现的&＃xff0c;所以MovieRecommendSystem和recommender下的src文件夹都可以删掉
  目前的整体项目框架如下&＃xff1a;

1.2 声明项目中工具的版本信息

整个项目需要用到多个工具&＃xff0c;它们的不同版本可能会对程序运行造成影响&＃xff0c;所以应该在最外层的MovieRecommendSystem中声明所有子项目共用的版本信息。在MovieRecommendSystem/pom.xml中加入以下配置&＃xff1a;

<properties> <log4j.version>1.2.17log4j.version> <slf4j.version>1.7.22slf4j.version> <mongodb-spark.version>2.0.0mongodb-spark.version> <casbah.version>3.1.1casbah.version> <elasticsearch-spark.version>5.6.2elasticsearch-spark.version> <elasticsearch.version>5.6.2elasticsearch.version> <redis.version>2.9.0redis.version> <kafka.version>0.10.2.1kafka.version> <spark.version>2.1.1spark.version> <scala.version>2.11.8scala.version> <jblas.version>1.2.1jblas.version> properties>

1.3 添加项目依赖

首先&＃xff0c;对于整个项目而言&＃xff0c;应该有同样的日志管理&＃xff0c;在MovieRecommendSystem中引入公有依赖&＃xff1a;

<dependencies> <!—引入共同的日志管理工具 --> <dependency> <groupId>org.slf4jgroupId> <artifactId>jcl-over-slf4jartifactId> <version>$slf4j.versionversion> dependency> <dependency> <groupId>org.slf4jgroupId> <artifactId>slf4j-apiartifactId> <version>$slf4j.versionversion> dependency> <dependency> <groupId>org.slf4jgroupId> <artifactId>slf4j-log4j12artifactId> <version>$slf4j.versionversion> dependency> <dependency> <groupId>log4jgroupId> <artifactId>log4jartifactId> <version>$log4j.versionversion> dependency> dependencies>

同样&＃xff0c;对于maven项目的构建&＃xff0c;可以引入公有的插件&＃xff1a;

<build> <plugins> <plugin> <groupId>org.apache.maven.pluginsgroupId> <artifactId>maven-compiler-pluginartifactId> <version>3.6.1version> <configuration> <source>1.8source> <target>1.8target> configuration> plugin> plugins> <pluginManagement> <plugins> <plugin> <groupId>org.apache.maven.pluginsgroupId> <artifactId>maven-assembly-pluginartifactId> <version>3.0.0version> <executions> <execution> <id>make-assemblyid> <phase>packagephase> <goals> <goal>singlegoal> goals> execution> executions> plugin> <plugin> <groupId>net.alchim31.mavengroupId> <artifactId>scala-maven-pluginartifactId> <version>3.2.2version> <executions> <execution> <goals> <goal>compilegoal> <goal>testCompilegoal> goals> execution> executions> plugin> plugins> pluginManageme> build>

然后&＃xff0c;在MovieRecommendSystem/recommender/ pom.xml模块中&＃xff0c;可以为所有的推荐模块声明spark相关依赖&＃xff08;这里的dependencyManagement表示仅声明相关信息&＃xff0c;子项目如果依赖需要自行导入&＃xff09;

<dependencyManagement> <dependencies> <dependency> <groupId>org.apache.sparkgroupId> <artifactId>spark-core_2.11artifactId> <version>$spark.versionversion> dependency> <dependency> <groupId>org.apache.sparkgroupId> <artifactId>spark-sql_2.11artifactId> <version>$spark.versionversion> dependency> <dependency> <groupId>org.apache.sparkgroupId> <artifactId>spark-streaming_2.11artifactId> <version>$spark.versionversion> dependency> <dependency> <groupId>org.apache.sparkgroupId> <artifactId>spark-mllib_2.11artifactId> <version>$spark.versionversion> dependency> <dependency> <groupId>org.apache.sparkgroupId> <artifactId>spark-graphx_2.11artifactId> <version>$spark.versionversion> dependency> <dependency> <groupId>org.scala-langgroupId> <artifactId>scala-libraryartifactId> <version>$scala.versionversion> dependency> dependencies> dependencyManagement>

由于各推荐模块都是scala代码&＃xff0c;还应该引入scala-maven-plugin插件&＃xff0c;用于scala程序的编译。因为插件已经在父项目中声明&＃xff0c;所以这里不需要再声明版本和具体配置&＃xff1a;

<build> <plugins> <plugin> <groupId>net.alchim31.mavengroupId> <artifactId>scala-maven-pluginartifactId> plugin> plugins> build>

对于具体的DataLoader子项目&＃xff0c;需要spark相关组件&＃xff0c;还需要mongodb的相关依赖&＃xff0c;在MovieRecommendSystem/recommender/DataLoader/pom.xml文件中引入所有依赖&＃xff08;在父项目中已声明的不需要再加详细信息&＃xff09;&＃xff1a;

<dependencies> <dependency> <groupId>org.apache.sparkgroupId> <artifactId>spark-core_2.11artifactId> dependency> <dependency> <groupId>org.apache.sparkgroupId> <artifactId>spark-sql_2.11artifactId> dependency> <dependency> <groupId>org.scala-langgroupId> <artifactId>scala-libraryartifactId> dependency> <dependency> <groupId>org.mongodbgroupId> <artifactId>casbah-core_2.11artifactId> <version>$casbah.versionversion> dependency> <dependency> <groupId>org.mongodb.sparkgroupId> <artifactId>mongo-spark-connector_2.11artifactId> <version>$mongodb-spark.versionversion> dependency> <dependency> <groupId>org.elasticsearch.clientgroupId> <artifactId>transportartifactId> <version>$elasticsearch.versionversion> dependency>




    
        
                        php
                        spark
                        编程
                        架构设计
                        git
                        clone
                        压缩
                        kafka
                        tomcat
                    
    



    
        写下你的评论吧 !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
                                    
                
            
        

        
    

    
        推荐阅读
        
            
                                
                    
                        spring
                        2018深入java目标计划及学习内容
                    

                    
                                                
                            
                        
                                                
                        本文介绍了作者在2018年的深入java目标计划，包括学习计划和工作中要用到的内容。作者计划学习的内容包括kafka、zookeeper、hbase、hdoop、spark、elasticsearch、solr、spring cloud、mysql、mybatis等。其中，作者对jvm的学习有一定了解，并计划通读《jvm》一书。此外，作者还提到了《HotSpot实战》和《高性能MySQL》等书籍。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-11 20:00:32
                    

                

                
                                
                    
                        int
                        什么是大数据lambda架构
                    

                    
                                                
                            
                        
                                                
                        一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-10-17 16:06:09
                    

                

                                
                    
                    
                
                
                                
                    
                        int
                        你知道Kafka和Redis的各自优缺点吗？一文带你优化选择，不走弯路
                    

                    
                                                
                        你知道Kafka和Redis的各自优缺点吗？一文带你优化选择，不走弯路 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-10-15 17:24:27
                    

                

                
                                
                    
                        int
                        马蜂窝数据总监分享：从数仓到数据中台，大数据演进技术选型最优解
                    

                    
                                                
                            
                        
                                                
                        大家好，今天分享的议题主要包括几大内容：带大家回顾一下大数据在国内的发展，从传统数仓到当前数据中台的演进过程；我个人认为数 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-10-14 14:20:07
                    

                

                
                                
                    
                        int
                        基于时间序列的异常检测系统的实现思路之一
                    

                    
                                                
                        技术方案：Spark、kafka、opentsdb、Yahoo的egads模型静态训练：采用两种算法进行模型的训练：指数移动平均和HotWinters，模型一天训练一次，即每天0点开始训练， ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-10-13 12:23:40
                    

                

                
                                
                    
                        spring
                        ElasticSerach初探第一篇认识ES+环境搭建+简单MySQL数据同步+SpringBoot整合ES
                    

                    
                                                
                            
                        
                                                
                        一、认识ElasticSearch是一个基于Lucene的开源搜索引擎，通过简单的RESTfulAPI来隐藏Lucene的复杂性。全文搜索，分析系统&# ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-09 10:36:06
                    

                

                
                                
                    
                        join
                        朱晔的互联网架构实践心得S1E7：三十种架构设计模式（上）
                    

                    
                                                
                        朱晔的互联网架构实践心得S1E7：三十种架构设计模式（上）【下载本文PDF进行阅读】设计模式是前人通过大量的实践总结出来的一些经验总结和最佳实践。在经过多年的软件开发实践之后，回过头 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-10-16 14:34:46
                    

                

                
                                
                    
                        schema
                        我们如何在kafkaconect分发模式下手动定义主题分区和复制
                    

                    
                                                
                        我正在使用sql-serverkafka-connect和debezium监视sqlserver数据库，但是当我发布并运行我的wo ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-10-16 12:54:59
                    

                

                
                                
                    
                        python
                        2019我的金三银四
                    

                    
                                                
                            
                        
                                                
                        先讲一下自己的情况吧，二本学生，17年毕业，目前在一家跨境电商从事Java技术开发工作（不是阿里，没那么厉害），技术栈目前偏向于容器云、持续集成持续交付这一块，也就是SpringBoot、Kuber ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-10-16 10:41:46
                    

                

                
                                
                    
                        netty
                        Java开发面试问题，2021网易Java高级面试题及答案，实战案例
                    

                    
                                                
                            
                        
                                                
                        前言大厂面试真题向来都是各大求职者的最佳练兵场，而今天小编带来的便是“HUAWEI”面经！这是一次真实的面试经历，虽然不是我自己亲身经历 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-10-15 11:38:31
                    

                

                
                                
                    
                        int
                        new无法执行@Autowired注解，多线程注意事项和如何判断子线程是否全部执行完成
                    

                    
                                                
                        前言最近一段时间在整公司项目里一个功能的优化，用到了多线程处理。期间也是踩了不少的坑，在这里想说下我遇到的问题和注意事项。以及怎样知道启动的那些多线程都 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-10-15 05:36:26
                    

                

                
                                
                    
                        int
                        kafka教程基本概念
                    

                    
                                                
                            
                        
                                                
                        kafka教程基本概念 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-10-14 18:38:21
                    

                

                
                                
                    
                        int
                        数据库异常智能分析与诊断
                    

                    
                                                
                            
                        
                                                
                        数据库,异常, ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-10-14 10:52:47
                    

                

                
                                
                    
                        spring
                        JeecgBoot 2.1.1 代码生成器 AI 版本发布，基于 SpringBoot 的快速开发平台
                    

                    
                                                
                        此版本重点升级了Online代码生成器，支持更多的控件生成，所见即所得，极大的提高开发效率；同时做了数据库兼容专项工作，让Online开发兼容更多数据库：Mysql、SqlServer、Oracle、Postgresql等!!!项目介绍 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-10-13 13:24:02
                    

                

                
                                
                    
                        spring
                        高可用架构_MySQL高可用架构设计
                    

                    
                                                
                            
                        
                                                
                        文章来自于https:www.jianshu.compd3107bda2963PHP进阶学习交流QQ群：983229225Mysql复制功能介绍Mysql的复制功能提 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-10-13 12:42:05

















    

    
        
            
            
                
                
            

            
                lylmwt            

            
                这个家伙很懒，什么也没留下！            


        
    

    
    

    
    

    
        Tags | 热门标签
        
            
                                
                    instance
                
                                
                    php8
                
                                
                    post
                
                                
                    string
                
                                
                    dll
                
                                
                    include
                
                                
                    spring
                
                                
                    plugins
                
                                
                    version
                
                                
                    future
                
                                
                    iostream
                
                                
                    buffer
                
                                
                    tree
                
                                
                    search
                
                                
                    dockerfile
                
                                
                    schema
                
                                
                    email
                
                                
                    python
                
                                
                    utf-8
                
                                
                    netty
                
                                
                    join
                
                                
                    nodejs
                
                                
                    express
                
                                
                    random
                
                                
                    shell
                
                                
                    runtime
                
                                
                    emoji
                
                                
                    node.js
                
                                
                    header
                
                                
                    int
                
                                
            
        
    

    
    
        
            
            
        
        RankList | 热门文章
        
            
                                
                    1c++ 基础知识(六) 结构体字节对齐
                
                                
                    2e百分如何下载资料？需要驱动吗？驱动在哪下？
                
                                
                    3Cypress系列（87） Cypress.browser 命令详解
                
                                
                    4工作机制_hadoop namenode datanode hdfs工作机制
                
                                
                    5中文，英文，数字，下划线不包含特殊字符的正则表达式
                
                                
                    6IOS第二天多线程03线程间通信
                
                                
                    7Apple iCloud服务中断超过24小时
                
                                
                    8机位|成人_在成人影片里做17种姿势识别？大佬在线求助：训练集不够用！
                
                                
                    9基础学习_python 基础学习1
                
                                
                    10[OHIFViewers]医疗数字阅片医学影像Module:Panel自定义面板中二Redux&reactredux状态管理详解
                
                                
                    11java 定时任务存取数据库,crontab定时任务备份数据库
                
                                
                    12surfacepro4黑苹果触屏_又是同级首款！这次的奥迪又带来了什么黑科技？
                
                                
                    13关于apollo:SpringBoot-使用-Apollo
                
                                
                    14用NAN写一个nodejs的c++扩大
                
                                
                    15日历控件jscalendar1.0中文解决方法